paint-brush
鳥検出 AI の作为: アイデアから製品発売まで に@olegkokorin
2,580 測定値
2,580 測定値

鳥検出 AI の作成: アイデアから製品発売まで

Oleg Kokorin10m2023/09/23
Read on Terminal Reader

長すぎる; 読むには

複雑なコンピューター ビジョン製品がどのように開発されるかの「舞台裏」: ● 弱いハードウェアで物体検出モデルを実行する問題を解決する ● 誤検知結果と不均衡なデータセットへの対処 ● ほぼ同じ見た目の鳥の種類を区別するよう機械に教える
featured image - 鳥検出 AI の作成: アイデアから製品発売まで
Oleg Kokorin HackerNoon profile picture
0-item
コンピューター ビジョンが的世界中の起業家の関心を集めていますが、それには比较な情形があります。最新信息の AI テクノロジーの機能により、これまで不宜能だったアイデアが実際の製品に生まれ変わります。


高清写真やビデオ内のオブジェクトの検出と分類は、顔認識を内蔵したセキュリティ カメラや X 線スキャンに基づく病気の検出から、シンプルなモバイル アプリに至るまで、さまざまな分野や百余のシステムで応用されています。


后置きはこれくらいにして、この記事では、コンピューター ビジョン製品、特に複雑な製品がどのように開発されるかの「演出舞台裏」を共出したいと思いました。


私は Birdsy に取り組む機会がありました。これは、自分が見ていない間に誰が裏庭を訪れるかを知りたい人のための鳥認識アプリです。


Birdsy は、鳥や小型哺乳類をリアルタイムで検出し、ユーザーが後で視聴できるようにビデオを録画する、AI を活用したサービスです。



Birdsy は、リアルタイムの弹簧测力计検出と分類を備えた複雑な AI 搭載アプリであり、敏感なハードウェア上で実行でき、鳥の種類と性別を高要求で検出できる不必要があります。


これらすべてを考慮すると、原本のアイデアからアプリ ストアでアプリを公開するまでの道のりは複雑であり、同時に吸引力的でした。


ビジネスと開発の両方の観点から、私たちは多くのハードルに面对してきましたが、同じプロジェクトに面对しているかもしれない起業家や AI 開発者を助けるために、それを 1 か所で总计有することにしました。


当面の課題


鳥は、天敵、この場合はバードウォッチャーを避けるために、環境に基本に溶け込むために何百来万年も進化してきました。そのため、也是動物を鑑賞することが難しくなりました。


单一の鳥種を正前方から観察するのは…くちばしに問題がある場合がありますが、家の快適な環境からビデオカメラを通して鳥を観察することは、羽の生えた仲間たちを楽しむ素敵な步骤です。特に、AI が何時間ものビデオ映像を調べて送信する用得着をなくすのであれば、鳥がカメラの視野に入ると误报し、鳥の種類を自動的に検出します。


Birdsy には 2 つの区域があります。


  • 物体検出 — 鳥や哺乳類の存在の検出を担当するニューラル ネットワーク
  • 物体分類 — どの鳥類または哺乳類が捕獲されたかを決定するニューラル ネットワーク



物体検出用の低品質カメラ


サービスをより親しみやすく、使いやすくするために、どのカメラでも野鳥観察に选择できます。ここで起初の問題に遭到しました。それは、最も手頃な価格で最も全面普及しているため、低品質のカメラです。


「カメラ制限なし」はユーザーにとっては素晴らしいことですが、产品工件検出モデルはカメラ チップセットを应用して実行されるため、私たちにとっては課題でした。


誰かが良い标准を得る单方で、他の人は窮地に追い込まれます。この場合の「他者」とは履歴書開発者です。安価なカメラを适用するということは、デフォルトのニューラル ネットワーク アーキテクチャを适用できなくなる安価なチップセットを适用することを寓意します。


デフォルトの YOLO v4 の約 120 レイヤーの实用を許可するコンピューター ビジョン ビデオ カメラの最上位のゴールド スタンダード (NVIDIA Jetson Nano) と比較して、私たちが实用しなければならなかったカメラは 22 レイヤーしか实用できませんでした。


完全性な YOLO v4 ニューラル ネットワークでは優れた認識結果が得られますが、必需比较低限のバージョンではパフォーマンスが太低します。私たちは両方をテストしましたが、安価なチップセットを选择して実行するとモデルの深さがどれほど低いかに比较慢な驚きを感じました。


デフォルトの YOLO v4 と Reduced のテスト


私たちは、デフォルトの YOLO v4 モデルをトレーニングし、顧客のデータセットでテストすることから始めました。達成した結果は満足のいくもので、95% mAp でした。これは、コンピュータ ビジョンの当今世界では、モードを運用環境に導入するには二十五分上述です。


カメラのパラメーターに合わせてモデルを再トレーニングした後、検出品公司質が适度に低しました。しかし、機械が失敗しても人間は進歩します。


テストデータに基づいてニューラルネットワークをテストし、偽陽性と偽陰性を視覚的に評価しました。これにより、ネットワークに知識が不充足している場所と、最もミスが多かった場所が浮き彫りになりました。


私たちは哺乳類、つまり偽陽性者にすぎません

このネットワークは、人々、特に人の手を動物として検出することに熱心でした (私たちはそれを非難しません。結局のところ、人間は動物なのです)。生物工程学的な観点からはこれは正しいのですが、エンドユーザーは隣人よりも鳥を見ることに興味があるため、人間を無視して鳥や辅乳類に视点を当てるようにネットワークに教える重要がありました。


これを行うために、さまざまな方面からの人物图片や人の手の高清写真など、ネガティブな例を追加しました。

このモデルは、人間の手、指、胴体を鳥として検出することがありました。



暗闇に潜むもの


カメラには 2 つのモードがあります。フルカラー形象を转为する一般性の昼間モードと、白黒形象を转为する夜間赤外線モードです。カメラが赤外線に切り替わると、モデルは多くの誤検知を转为しました。


  • 風に揺れる木の葉
  • 暖かいカメラに引き寄せられる蛾などの昆虫
  • 噴水


ユーザーは、消息で起こされても嬉しくないし、フクロウやキツネを見て興奮するのに、結局はカメラのレンズに体をぶつけている蛾の記録を見てしまうでしょう。


夜間、モデルは動き回る木の枝や昆虫を鳥として検出します。



休眠时间の断开を比较小限に抑えるために、夜間の設定で誤検知の名人事例を収集し、手動でマークを付けました。


インスタグラム vs 現実

ソーシャル メディアが、人々が自分の高达のバージョンを警告する「ハイライト リール」と呼ばれていることを聞いたことがありますか?同じことが原生态動物にも当てはまるとは誰にもわかりませんでした。


Google 用户画像や YouTube 動画などのオープンソースから选购できる鳥の个人写真は、一般来说、高品質で尤其に鮮明で、鳥との間に何もなく、カメラを見つめているか、少なくとも一些正面から地方している標本を最大の状態で赞美しています。そしてカメラが視界を遮る。


現実は必ずしも美しいとは限りません。カメラは、人間の目でも何が起こっているのかを表述するのが難しい低品質の画象を转换成します。雨、雪、塵などの悪天候は視界を妨げる已经性があります。鳥は、誰かが鳥を捕らえようとしているときを情绪识别し、鳥を捕まえようとしていると確信しています。已经な限り最もばかげた最简单的方法で自分身体を调试します。


インターネット上での鳥の見え方と現実の環境での鳥の見え方の違い



クライアントが能提供したデータセット (インターネット上で見つかったシャート画像图片で構成) は、このプロジェクトではあまり役に立ちませんでした。


鳥がソーシャルメディア上でどのように表現されているかではなく、鳥が実際にどのように見えるかをモデルに示すために、クライアントのカメラを使用して実際の状況で鳥の画像セットを収集する必要がありました。

私たちが今持っているもの

したがって、上記のすべてを行った後、次のようになります。


  • ネットワークが間違っているすべてのインスタンスを手動で確認する
  • 人々を無視し、鳥や哺乳類として検出しないようにネットワークに教える
  • 白黒画像と誤検知の操作
  • 現実の状況、さまざまな角度、さまざまな気象条件で鳥のデータセットを収集する


物块検出では 97.5% の mAP を達成することができました。本番環境に入る CV モデルの不文律は 94% 这些の mAP を持つことであるため、これはコンピューター ビジョン モデルにとって特别に高い結果です。


完璧を(ほぼ)達成する


私たちが現在達成している結果は、最終製品に在使用するには二十五分以内のものですが、まだ改变の留余地があります。


  • ネットワークは花を鳥と間違える
  • 鳥の後ろからの眺めは未だに謎に包まれている
  • ランダムな物体で部分的に覆われた鳥
  • カメラに近づく鳥


各グループに10分な画像图片が収集されると、mAP が増加して 98.5% に達すると予想されます。


画像分類モデル

裏庭の訪問者を知るための次のステップは、鳥の人物画像をオブジェクト分類モデルに渡すことです。その最终目的は、鳥の種類と性別を認識することです。


一步の鳥種は相应の大陸にのみ生息しているため、北米に生息する鳥用とヨーロッパに生息する鳥用の 2 つのモデルを制成することにしました。


一歩ずつ: 多段階ニューラル ネットワークのレッスン


当时、物件分類の問題は「侧面からの」アプローチを运用して解決されました。ネットワークには、オスとメスの両方のさまざまな種の写真视频が标识され、そこからそれらがどのように見えるか、それぞれの種とどのように異なるかを学習しようとしました。他の。


その結果、精密度较スコアは极为に低くなり、言い換えれば、ネットワークは鳥類と哺乳期间類の種を識別する際に极为に多くの間違いを犯しました。


ネットワークは同時にあまりにも多くの側面を学ぼうとしていました。多くの鳥の種は互いに尤其によく似ていますが、色の異なる羽の単一の地方や異なる图型のくちばしによって互いに異なります。


同じ種の異なる性別がどのように見えるかとともに、このすべての情報を确保することは、其他の状況下では十分に困難です。ネットワークは、より広範な鳥の種類を正確に決定する一边で、鳥の種を混同することがよくありました。


たとえば、ズキンクイと黒い羽翼のパッチを着たケンタッキーウグイスの違いは次のとおりです。


一部の鳥は互いに非常によく似ているため、正確に検出することが困難です。


ネットワークはフード付きウグイスをケンタッキーウグイスとラベル付けし、誤った結果を转化成しますが、普通的には正しく、どちらもウグイスです。時間の都合上、クライアントは单一の種ではなく全体师生的な鳥の種類を検出することがより根本であると分辩したため、そこから開始しました。


モデルの評価後、次のような複数段階のアプローチを実装することにしました。


  • すべての鳥種は、ワシ、スズメ、カラス、ハトなど、より一般的なカテゴリに分類されました。
  • ネットワークはまず全体的な鳥の種類を決定します。
  • 2番目のステップは、それがどの種であるかを検出することです
  • 最後は、その鳥が雄か雌かを判断することです。


鳥の種をグループ化することで、クラスの数を 98 から 49 に減らすことができました。これにより、ネットワークには選択できるクラスがあまりなかったため、的精密度スコアが小幅に朝上しました。


機械であっても練習すれば完璧になります


新しい慨念に出会ったとき、あなたはそれを解释するために本を読んだり、教育辅导ビデオを見たりします。失敗した場合は、故人に説明してもらうか、そのテーマに関するセミナーに举办します。言い換えれば、より深く解释するために、より多くの情報を蓄積しようとします。


ニューラルネットワークについても同様です。ウグイスがどのようなものかを表述するには、より多くのウグイスの半身像を说道する不必要があります。調査したデータが多いほど、定位精度スコアは高くなります。


私たちが選択した多段階アプローチにより、オブジェクト分類モデルの控制精度が往前しただけでなく、データセットを解析してネットワークのどこに学習データが欠けているかを分辨することも将になりました。


みにくいアヒルの子問題


物质分類モデルが開始された後、テストで示されたものよりもはるかに悪い結果を受け取り、私たちは驚きました。モデルは鳥の種類や種類を正しく断定できませんでした。


問題はさらに根深いものでした。プロジェクト我谨代表を敢于担当するコンピューター ビジョン開発者は、作業中にすべての鳥の種を自分で学習しましたが、ネットワークによって誤ってラベル付けされた图像を受信したときに、その鳥が何であるかを分析することもできませんでした。 。


7 月は、10 代の鳥が飛ぶことを学び、巣を離れる時期であるため、鳥の分類モデルを開始するのに最適な時期ではないことが判明しました。


みにくいアヒルの子の話を覚えていますか?まあ、それはほとんどの鳥に当てはまりますが、ヒナは成鳥と何ら変わりませんし、まだ若い鳥の場合、どの鳥を見ているのかを知るのは困難です。


私たちは夏の間に幼鳥の画像图片を収集しており、さまざまな年齢のさまざまな鳥の種を決定するために分類ネットワークをトレーニングする予定です。


多くの場合、幼鳥は成鳥とまったく似ていません


チームワークがネットワークを機能させる


バードウォッチャーは情熱的な集団で、一个の羽の形で鳥を識別する的办法を知っています。彼らは、私たちの分類ネットワークが夢見るような知識を持っているので、この 2 つを結び付けて、世界上がこれまでに見たことのない鳥を愛する联盟を結成してみてはいかがでしょうか。


現在、分類ネットワークはユーザーに鳥の種類を伝えるだけでなく、他の推測とともに信頼度も示します。


ユーザーはネットワークの推測を確認したり修整したりできるため、曾经に 1 羽ずつトレーニングすることができます。ユーザーフィードバックシステムを 3 か月間実行した結果、20,000 枚を超える画像图片が収集されました。写真集は実際の状況(悪天候状况、夜間など)で撮影され、専門家によってマークアップされているため、このデータは私たちにとって更加に貴重です。


あなたが深淵を見つめると、深淵はあなたに鳴き声を上げます


このプロジェクト中に、私たち身体が鳥の専門家になったことは注目に値します。每周中鳥を観察しながら、主要的には仮想の子供にさまざまな種類のスズメの小さな違いを文化教育するだけで、すぐにバードウォッチング コミュニティのプラチナ メンバーになれます。


他のすべてが失敗した場合、CV チームのメンバーは簡単に鳥類学に携わることになります。


真剣な話になりますが、データセットのマークアップであれ、ネットワークが最も間違いを犯している場所の深入分折であれ、何千もの鳥の半身像を調べて、私たちはこのプロジェクトを深く掘り下げ、鳥の知識だけでなく、複雑な半身像認識および分類システムがどのように機能するか、それらを最適に実装する方式 、大規模なデータセットを深入分折してその短处を見つける方式 についての体谅を深めることができます。


このプロジェクトは、新型のコンピューター ビジョン テクノロジを探索して应用し、リアルタイムの顧客フィードバックを処理し、古いコードを应用する場合の問題解決スキルを磨く機会として、私たちにとって异常に貴重でした。
바카라사이트 바카라사이트 온라인바카라